269 research outputs found

    Application de techniques parcimonieuses et hiérarchiques en reconnaissance de la parole

    Get PDF
    Les systèmes de reconnaissance de la parole sont fondamentalement dérivés des domaines du traitement et de la modélisation statistique des signaux. Depuis quelques années, d'importantes innovations de domaines connexes comme le traitement d'image et les neurosciences computationnelles tardent toutefois à améliorer la performance des systèmes actuels de reconnaissance de parole. La revue de la littérature a suggéré qu'un système de reconnaissance vocale intégrant les aspects de hiérarchie, parcimonie et grandes dimensions joindrait les avantages de chacun. L'objectif général est de comprendre comment l'intégration de tous ces aspects permettrait d'améliorer la robustesse aux bruits additifs d'un système de reconnaissance de la parole. La base de données TI46 (mots isolés, faible-vocabulaire) est utilisée pour effectuer l'apprentissage non-supervisé et les tests de classification. Les différents bruits additifs proviennent de la base de données NOISEX-92, et permettent d'évaluer la robustesse en conditions de bruit réalistes. L'extraction de caractéristiques dans le système proposé est effectuée par des projections linéaires successives sur des bases, permettant de couvrir de plus en plus de contexte temporel et spectral. Diverses méthodes de seuillage permettent de produire une représentation multi-échelle, binaire et parcimonieuse de la parole. Au niveau du dictionnaire de bases, l'apprentissage non-supervisé permet sous certaines conditions l'obtention de bases qui reflètent des caractéristiques phonétiques et syllabiques de la parole, donc visant une représentation par objets d'un signal. L'algorithme d'analyse en composantes indépendantes (ICA) s'est démontré mieux adapté à extraire de telles bases, principalement à cause du critère de réduction de redondance. Les analyses théoriques et expérimentales ont montré comment la parcimonie peut contourner les problèmes de discrimination des distances et d'estimation des densités de probabilité dans des espaces à grandes dimensions. Il est observé qu'un espace de caractéristiques parcimonieux à grandes dimensions peut définir un espace de paramètres (p.ex. modèle statistique) de mêmes propriétés. Ceci réduit la disparité entre les représentations de l'étage d'extraction des caractéristiques et celles de l'étage de classification. De plus, l'étage d'extraction des caractéristiques peut favoriser une réduction de la complexité de l'étage de classification. Un simple classificateur linéaire peut venir compléter un modèle de Markov caché (HMM), joignant une capacité de discrimination accrue à la polyvalence d'une segmentation en états d'un signal. Les résultats montrent que l'architecture développée offr de meilleurs taux de reconnaissance en conditions propres et bruités comparativement à une architecture conventionnelle utilisant les coefficients cepstraux (MFCC) et une machine à vecteurs de support (SVM) comme classificateur discriminant. Contrairement aux techniques de codage de la parole où la transformation doit être inversible, la reconstruction n'est pas importante en reconnaissance de la parole. Cet aspect a justifié la possibilité de réduire considérablement la complexité des espaces de caractéristiques et de paramètres, sans toutefois diminuer le pouvoir de discrimination et la robustesse

    Objets sonores : une représentation bio-inspirée, hiérarchique, parcimonieuse à très grandes dimensions utilisable en reconnaissance

    Get PDF
    L’accent est placé dans cet article sur la structure hiérarchique, l’aspect parcimonieux de la représentation de l’information sonore, la très grande dimension des caractéristiques ainsi que sur l’indépendance des caractéristiques permettant de définir les composantes des objets sonores. Les notions d’objet sonore et de représentation neuronale sont d’abord introduites, puis illustrées avec une application en analyse de signaux sonores variés : parole, musique et environnements naturels extérieurs. Finalement, un nouveau système de reconnaissance automatique de parole est proposé. Celui-ci est comparé à un système statistique conventionnel. Il montre très clairement que l’analyse par objets sonores introduit une grande polyvalence et robustesse en reconnaissance de parole. Cette intégration des connaissances en neurosciences et traitement des signaux acoustiques ouvre de nouvelles perspectives dans le domaine de la reconnaissance de signaux acoustiques.Abstract : The emphasis is put on the hierarchical structure, independence and sparseness aspects of auditory signal representations in high-dimensional spaces, so as to define the components of auditory objects. The concept of an auditory object and its neural representation is introduced. An illustrative application then follows, consisting in the analysis of various auditory signals : speech, music and natural outdoor environments. A new automatic speech recognition (ASR) system is then proposed and compared to a conventional statistical system. The proposed system clearly shows that an object-based analysis introduces a great flexibility and robustness for the task of speech recognition. The integration of knowledge from neuroscience and acoustic signal processing brings new ways of thinking to the field of classification of acoustic signals

    Modélisation de la structure et dynamique corticale avec application en apprentissage machine

    Get PDF
    L'objectif de ce projet de recherche est d'identifier les propriétés de la connectivité et de la dynamique du système visuel qui peuvent mener à des systèmes d'apprentissage machine stables et performants, lorsqu'implémentés par des méthodes de classification par réservoir de neurones à décharge. Un modèle complexe du système visuel est d'abord proposé selon des données anatomiques et neurophysiologiques tirées de la littérature. La qualité de la modélisation structurelle et l'impact computationnel des caractéristiques de modélisation considérées sont ensuite étudiés. Un mécanisme de régulation homéostatique du taux de décharge moyen et de la balance excitation-inhibition basé sur la plasticité synaptique dépendante du temps de décharge est aussi proposé. L'effet des caractéristiques de modélisation sur les performances de classification de bases de données synthétiques est finalement évalué, montrant l'interaction complexe de ces dernières sur la dynamique neuronale.Le cerveau est un système biologique complexe avec de multiples caractéristiques structurelles (p. ex. neurones, synapses) et dynamiques (p. ex. décharges neuronales, plasticité synaptique). Il est encore aujourd’hui difficile de différentier les caractéristiques qui contribuent réellement à sa fonction du traitement de l’information sensorielle, comparativement aux caractéristiques qui soutiennent plutôt la régulation et le contrôle du métabolisme. Le but de cette thèse est d’identifier les caractéristiques de modélisation précises du système visuel dans le cerveau qui peuvent mener à des systèmes d’apprentissage machine bioinspirés stables et performants. Au niveau méthodologique, l’évaluation de l’impact des caractéristiques de modélisation structurelle sur la reproduction de la connectivité corticale est d’abord réalisée, suivie de l’impact computationnel des caractéristiques de modélisation dynamique. Pour assurer la stabilité de l’activité neuronale, un mécanisme de régulation homéostatique pour les synapses excitatrices et inhibitrices basé sur la plasticité dépendante du temps de décharge multiplicative est ensuite proposé. Finalement, l’application à une tâche de classification est réalisée en adaptant le modèle proposé en un système d’apprentissage machine basé sur un réservoir de neurones à décharge. Des bases de données synthétiques permettant de valider les performances de classification de façon objective pour différentes formes de représentation de l’information (spatiale, temporelle ou spatiotemporelle) sont aussi proposées. L’effet des caractéristiques de modélisation est finalement évalué par des analyses statistiques rigoureuses sur la performance de classification de ces bases de données. Les résultats montrent que certaines caractéristiques de modélisation structurelle, comme la considération de grappes synaptiques pour modéliser les projections apicales, affectent le nombre optimal de neurones et de synapses requis dans le modèle pour bien reproduire la connectivité corticale. Il est aussi observé que certaines caractéristiques de modélisation dynamique impliquent des facteurs computationnels limitants comme la génération de nombres aléatoires et l’évaluation de la fonction exponentielle. Au niveau applicatif, certaines caractéristiques ont montré un effet statistiquement significatif et bénéfique sur les performances de reconnaissance pour au moins une des bases de données. Il s’agit de la distribution réaliste des synapses, des contraintes synaptiques, du facteur pour le type d’interaction postsynaptique et du nombre variable de sites de libération. Certaines caractéristiques de modélisation comme la plasticité à court terme et la connectivité synaptique proximale et distale ont montré un effet significatif néfaste sur les performances de classification. Plusieurs caractéristiques de modélisation (p. ex. transmission probabiliste) n’ont aucun effet significatif, mais montrent plutôt que la méthode de classification par réservoir de neurones à décharge est robuste par rapport à la dynamique et à la variabilité introduite par ces dernières. En perspective, ceci permet de mieux comprendre l’impact et l’interaction des caractéristiques de modélisation sur la dynamique neuronale

    HoME: a Household Multimodal Environment

    Full text link
    We introduce HoME: a Household Multimodal Environment for artificial agents to learn from vision, audio, semantics, physics, and interaction with objects and other agents, all within a realistic context. HoME integrates over 45,000 diverse 3D house layouts based on the SUNCG dataset, a scale which may facilitate learning, generalization, and transfer. HoME is an open-source, OpenAI Gym-compatible platform extensible to tasks in reinforcement learning, language grounding, sound-based navigation, robotics, multi-agent learning, and more. We hope HoME better enables artificial agents to learn as humans do: in an interactive, multimodal, and richly contextualized setting.Comment: Presented at NIPS 2017's Visually-Grounded Interaction and Language Worksho

    Diversity and evolution of bodyguard manipulation.

    Get PDF
    International audienc

    Highly charged ions in Penning traps, a new tool for resolving low lying isomeric states

    Full text link
    The use of highly charged ions increases the precision and resolving power, in particular for short-lived species produced at on-line radio-isotope beam facilities, achievable with Penning trap mass spectrometers. This increase in resolving power provides a new and unique access to resolving low-lying long-lived (T1/2>50T_{1/2} > 50 ms) nuclear isomers. Recently, the 111.19(22)111.19(22) keV (determined from γ\gamma-ray spectroscopy) isomeric state in 78^{78}Rb has been resolved from the ground state, in a charge state of q=8+q=8+ with the TITAN Penning trap at the TRIUMF-ISAC facility. The excitation energy of the isomer was measured to be 108.7(6.4)108.7(6.4) keV above the ground state. The extracted masses for both the ground and isomeric states, and their difference, agree with the AME2003 and Nuclear Data Sheet values. This proof of principle measurement demonstrates the feasibility of using Penning trap mass spectrometers coupled to charge breeders to study nuclear isomers and opens a new route for isomer searches.Comment: 8 pages, 6 figure
    • …
    corecore